1
De la probabilité à la vraisemblance : La science de l'inférence
MATH003Lesson 6
00:00
L'inférence statistique marque le passage de la prédiction des résultats à partir de paramètres connus (probabilité) à la détermination des paramètres les plus cohérents avec les données observées (vraisemblance). Alors qu'une fonction de densité de probabilité $f(x|\theta)$ décrit la distribution des données $x$ pour un $\theta$ fixe, la fonction de vraisemblance $L(\theta|x)$ traite les données observées comme fixes et fait varier le paramètre $\theta$ afin de quantifier le soutien relatif accordé à différentes hypothèses.

Le principe d'inversion

La fonction de vraisemblance est souvent exprimée sous la forme de la densité conjointe. Pour une loi normale à variance fixe, la vraisemblance est définie par :

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

Ici, nous évaluons la « plausibilité » de différentes valeurs de $\theta$ étant donné la moyenne d'échantillon $\bar{x}$. Pour trouver le sommet de cette plausibilité, nous utilisons Définition 6.2.2: la log-vraisemblance $l(\theta | s) = \ln L(\theta | s)$. Cette transformation transforme les produits d'observations indépendantes en sommes, rendant la maximisation des modèles complexes calculable.

Exemple travaillé : Enquête sur les tailles (EXEMPLE 6.3.5)

Les données

Considérons un échantillon de $n=30$ tailles avec un écart-type calculé de $s=2.379$. En utilisant le modèle normal à localisation-échelle, nous cherchons à inférer la moyenne réelle $\theta$.

Inférence et précision

L'erreur type est calculée comme $s/\sqrt{30} = 0.43434$. Cette valeur mesure la « netteté » de notre pic de vraisemblance. Une erreur type plus petite implique un pic plus étroit et plus aigu, représentant une précision plus élevée dans notre inférence concernant $\theta$.

Dimensionnalité et contraintes

Dans des scénarios complexes comme EXEMPLE 6.1.5 (Modèles multinomiaux), nous devons tenir compte des dépendances logiques. Comme indiqué : « Remarquez qu’il est vraiment seulement bidimensionnel, car dès que nous connaissons la valeur de deux quelconques des $\theta_i$… nous connaissons immédiatement la valeur du paramètre restant. » Cette contrainte est essentielle pour définir correctement l’espace des paramètres $\Omega$.

Fondements asymptotiques

Le pont entre la vraisemblance et l'inférence repose sur le théorème central limite. Lorsque $n \to \infty$, la distribution de nos estimateurs converge. Plus précisément, dans le EXEMPLE 6.5.4 modèle de Bernoulli:

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

Cela nous permet de quantifier l'incertitude à l'aide d'intervalles-z et de valeurs-p, à condition que nous disposions d'échantillons suffisamment grands.

🎯 Principe fondamental
Les méthodes d'inférence statistique non paramétriques nécessitent uniquement des hypothèses minimales sur la distribution d'échantillonnage, ce qui les rend robustes lorsque la famille $\{P_{\theta} : \theta \in \Omega\}$ est très grande. En revanche, les méthodes paramétriques de vraisemblance reposent sur la courbure de la log-vraisemblance, où l'information de Fisher $nI(\theta)$ détermine la variance de notre fonction de score.